从Wasserstein距离、对偶理论到WGAN
作者丨苏剑林
单位丨广州火焰信息科技有限公司
研究方向丨NLP,神经网络
个人主页丨kexue.fm
2017 年的时候笔者曾写过互怼的艺术:从零直达WGAN-GP,从一个相对通俗的角度来介绍了 WGAN,在那篇文章中,WGAN 更像是一个天马行空的结果,而实际上跟 Wasserstein 距离没有多大关系。
在本篇文章中,我们再从更数学化的视角来讨论一下 WGAN。当然,本文并不是纯粹地讨论 GAN,而主要侧重于 Wasserstein 距离及其对偶理论的理解。
▲ 推土机哪家强?成本最低找Wasserstein
本文受启发于著名的国外博文 Wasserstein GAN and the Kantorovich-Rubinstein Duality [1],内容跟它大体上相同,但是删除了一些冗余的部分,对不够充分或者含糊不清的地方作了补充。不管怎样,在此先对前辈及前辈的文章表示致敬。
注:完整理解本文,应该需要多元微积分、概率论以及线性代数等基础知识。还有,本文确实长,数学公式确实多,但是,真的不复杂、不难懂,大家不要看到公式就吓怕了。
Wasserstein距离
显然,整篇文章必然围绕着 Wasserstein 距离(W 距离)来展开。假设我们有了两个概率分布 p(x),q(x),那么 Wasserstein 距离的定义为:
事实上,这也算是最优传输理论中最核心的定义了。
相信我,式 (1) 没有想象中那么难理解。我们来逐项看看。
成本函数
首先 d(x,y) ,它不一定是距离,其准确含义应该是一个成本函数,代表着从 x 运输到 y 的成本。常用的 d 是基于 l 范数衍生出来的,比如:
都是常见的选择,其中:
特别指出,其实哪种距离并不是特别重要,因为很多范数都是相互等价的,范数的等价性表明其实最终定义出来的 W 距离都差不多。
成本最小化
然后来看 γ ,条件 γ∈Π[p,q] 意味着:
这也就是说, γ 是一个联合分布,它的边缘分布就是原来的 p 和 q。
事实上 γ 就描述了一种运输方案。不失一般性,设 p 是原始分布,设 q 是目标分布, p(x) 的意思是原来在位置 x 处有 p(x) 量的货物, q(x) 是指最终 x 处要存放的货物量,如果 p(x)>q(x) ,那么就要把 x 处的一部分货物运到别处,反之,如果 p(x)<q(x) ,那么就要从别的地方运一些货物到 x 处。而 γ(x,y) 的意思是指,要从 x 处搬 γ(x,y)dx 那么多的东西到 y 处。
最后是 inf ,这表示下确界,简单来说就是取最小,也就是说,要从所有的运输方案中,找出总运输成本 ∬γ(x,y)d(x,y)dxdy 最小的方案,这个方案的成本,就是我们要算的 W[p,q] 。
如果将上述比喻中的“货物”换成“沙土”,那么 Wasserstein 距离就是在求最省力的“搬土”方案了,所以 Wasserstein 距离也被称为“推土机距离”(Earth Mover's Distance)。
最后改编一张开头提到的国外博文的图片,来展示这个“推土”过程:
▲ 推土机距离图示。左边p(x)每处的沙土被分为若干部分,然后运输到右端q(x)的同色的位置(或者不动)
矩阵形式
逐项分析完含义之后,现在我们再来完成地重述一下问题,我们实际上在求下式的最小值:
其中 d(x,y) 是事先给定的,而这个最小值要满足如下约束:
认真盯着式 (5),考虑到积分只是求和的极限形式,所以我们可以把 γ(x,y) 和 d(x,y) 离散化,然后看成很长很长的(列)向量 Γ 和 D:
所以式 (5) 相当于就是将 Γ 和 D 对应位置相乘,然后求和,这不就是内积 ⟨Γ,D⟩ 了吗?
如果还没理解这一点,那么请再好好地盯一会式 (5),头脑中想象着将 x,y 分区间离散化的过程,再想想积分的定义,相信这并不难理解。
如果已经理解了这一点,那就好办了,我们可以把约束条件 (6) 也这样看:把 p(x),q(x) 分别看成一个长向量,然后还可以拼起来,把积分也看成求和,这时候约束条件 (6) 也可以写成矩阵形式 AΓ=b:
最后不能忘记的是 Γ ≥ 0 ,它表示 Γ 的每个分量都大于等于 0。
线性规划问题
现在问题可以用一行字来描述:
这就是“线性约束下的线性函数最小值”的问题,它就是我们在高中时就已经接触过的线性规划问题了。可见,虽然原始问题足够复杂,又有积分又有下确界的,但经过转写,它本质上就是一个并不难理解的线性规划问题(当然,“不难理解”并不意味着“容易求解”)。
线性规划与对偶
让我们用更一般的记号,把线性规划问题重写一遍,常见的形式有两种:
这两种形式本质上是等价的,只不过在讨论第一种的时候相对简单一点(真的只是简单一点点,并没有本质差别),而从 (9) 式可以知道,我们目前只关心第一种情况。
注意,为了避免混乱,我们必须声明一下各个向量的大小。我们假设每个向量都是列向量,经过转置 ⊤ 之后就代表一个行向量,
弱对偶形式
在规划和优化问题中,“对偶形式”是一个非常重要的概念。一般情况下,“对偶”是指某种变换,能将原问题转化为一个等价的、但是看起来几乎不一样的新问题,即:
“对偶”之所以称为“对偶”,是因为将新问题进行同样形式的变换后,通常来说能还原为原问题,即:
即“对偶”像是一面镜子,原问题和新问题相当于“原像”和“镜像”,解决了一个问题,就等价于解决了另一个问题。所以就看哪个问题更简单了。
读者可能还有疑问:“对偶”跟数学中诸如“逆否命题”之类的等价描述有什么区别?其实也没有本质区别,简单来说“对偶”和“逆否命题”都是跟原来的命题完全等价的,但是“对偶”看起来跟原命题很不一样,而“逆否命题”仅仅是原命题的一个逻辑变换。从线性代数的角度来看,“对偶”相当于向量空间中的“原空间”和“补空间”之间的关系。
最大 vs 最小
这里我们先介绍“弱对偶形式”,其实它推导起来还是挺简单的。
我们的目标是
如果此时假设
这便称为“弱对偶形式”,它的形式就是:“左边的最大”还大不过“右端的最小”。
几点评注
对于弱对偶形式,也许下面几点值得进一步说明一下:
1. 现在我们将原来的最小值问题变成了一个最大值问题
2. 弱对偶形式在很多优化问题中(包括非线性优化)都成立。如果二者真的相等,那么就是真正意义上的对偶了,称为强对偶形式。
3. 理论上,我们确实需要证明式 (13) 左右两端相等才能进一步应用它。但从应用角度,其实弱对偶形式给出的下界都已经够用了,因为深度学习中的问题都很复杂,能有一个近似的目标去优化都已经很不错了。
4. 读者可能会想问:前面我们为什么要假设
强对偶形式
上面已经说了,从实践角度其实弱对偶形式已经够用了。但是为了让对完整理论的读者也有更多收获,这里继续把“强对偶形式”也论证一番。对于只关心 WGAN 本身的读者来说,可以考虑跳过这部分。
所谓强对偶形式,也就是:
注意前面已经说了,弱对偶形式对于很多优化问题都成立,但强对偶形式不一定成立。而对于线性规划来说,强对偶形式是成立的。
Farkas引理
强对偶形式的证明,主要用到称之为“Farkas 引理”的结论:
对于固定的矩阵
1. 存在
2. 存在
什么鬼?又大又小又转置的?能不能说人话?
其实这个引理还真有一个很直观的几何解释,只不过几何解释翻译成代数语言就不简单了。几何解释的出发点是我们去考虑如下的向量集合:
这个集合的含义是:我们将 A 看成是 n 个 m 维列向量的组合。
那么上述集合实际上就是所有 a1,a2,…,an 的非负线性组合。那这个集合是个啥呢?答案是:一个锥,如图所示。
▲ 给定向量的非负线性组合构成这些向量围成的一个锥
现在我们随便给定一个向量 b,那么显然它只有两种可能性,而且必有一种成立:1. 在锥内(包括边界);2. 在锥外。这当然是废话,但是将它翻译成代数语言,那就不是废话了。
▲ 给定的向量在锥内,意味着可以表示为非负线性组合
▲ 给定的向量在锥外,我们可以找到一个“标杆”向量与之对比
如果它在锥内,那么根据锥本身的定义,它就可以表示为 a1,a2,…,an 的非负线性组合(表示方式可能不唯一),也就是存在 x≥0,使得 Ax=b,这就是第一种情况。
如果在锥外呢?怎么表示在锥外?当然我们可以直接写出锥内的否命题,但是那实用价值不大。如果向量 b 在锥外,那么我们总是可以找到一个“标杆”向量 y,它与 a1,a2,…,an 的夹角都大于等于 90 度,向量表示法就是内积都小于等于零,即
找到这个“标杆”后,向量 b 与“标杆”的夹角必然是要小于 90 度的,即
当然,这不能算是完备的证明,只能算是一个启发式引导,完备的证明还要仔细论证为什么这些向量的非负线性组合构成了一个锥。这些就不在本文的范畴了。Farkas 引理的特点是二选一,比如我要证明满足第二点,只需要证明它不满足第一点,反之亦然。这是对问题的一个转化。
从引理到强对偶
有了 Farkas 引理,我们就可以证明强对偶形式了。证明的思路是:证明 max 可以任意程度地接近 min 。
证明还是先假设 min 的最小值在
当 ϵ>0 时,那么对于任意 x≥0,
前面已经说了,不满足第一种情况,那就只能满足第二种情况了,即存在
下面我们表明 α 必须大于 0,这是因为
现在确定 α>0 了,我们就可以从式 (18) 得到:
这意味着:
而弱对偶形式已经告诉我们:
也就是
这便是要证的强对偶形式。
简单说明
Farkas 引理和强对偶形式的证明,看上去比较迂回,但实际上是优化理论中非常经典和重要的证明案例,对于初学者来说,它应该是一次非常强烈的思维冲击。因为我们以往的认识中,我们对原命题做变换,仅仅是局限于“逻辑变换”,如否命题、逆否命题等。而对偶形式和 Farkas 引理却出现了一些“看起来很不一样,却又偏偏等价”的结论。
Farkas 引理和强对偶形式也可以进一步推广到一般的凸集优化问题,证明手段相似,只不过在对区域和不等关系的讨论上,比上面的线性规划的过程更为细致和复杂。不过我也不是专门搞这些优化问题的,所以只有一个模糊的认识,就不再继续班门弄斧了。
Wasserstein GAN
好了,进行了一大通的准备工作后,我们终于可以导出 Wasserstein GAN 了,就本文来看,它只不过是线性规划的对偶形式的一个副产品罢了。
W距离的对偶
在推导之前,我们还是再来捋一捋本文的思路:本文先给出了 W 距离的定义 (1) ,然后经过分析,发现它其实就是普通线性规划问题的一个连续版本,转化过程为 (7) , (8) 和 (9) ;因此中间我们花了相当一部分篇幅去学习线性规划及其对偶形式,最终得到了结论 (14) 。
现在我们要做的事情,就是把整个过程“逆”过来,也就是将找出 (14) 对应的连续版本,为 W 距离找一个对偶表达式。 其实这个过程也不复杂,由结论 (14) 和式 (9) ,我们得到:
注意式 (8) 中 b 是由两部分拼起来的,所以我们也可以把 F 类似地写成:
现在 ⟨b,F⟩ 可以写成:
或者对应的积分形式是:
别忘了约束条件
代入计算后,可以发现这个诺大的矩阵运算实际上就说了这样的一件事情:
或者直接写成:
从对偶到WGAN
终于,我们就要接近尾声了,现在我们得到了 W 距离 (1) 的一个对偶形式了:
注意到由 f(x)+g(y)≤d(x,y) 我们得到:
即 g(x)≤−f(x),所以我们有:
即如果 g=−f,它的最大值不会小于原来的最大值,所以我们可以放心地让 g=−f,从而:
这便是我们最终要寻找的 W 距离 (1) 的对偶形式了,其中约束条件我们可以写为 ||f||L≤1,称为 Lipschitz 约束。
由于 p,q 都是概率分布,因此我们可以写成采样形式:
这就是 WGAN 的判别器所采用的 loss 了,自然地,整个 WGAN 的训练过程就是:
千呼万唤的 WGAN 终于现身,剩下的就是怎么加 Lipschitz 约束的问题了,可以参考:深度学习中的Lipschitz约束:泛化与生成模型。
文章小结
本文主要介绍了 Wasserstein 距离,然后转化为一个线性规划问题,继而介绍了线性规划的对偶理论,最终导出了 Wasserstein 距离的对偶形式,它可以用作训练生成模型,即 WGAN 及后面一系列推广。
本文是笔者对线性规划及其对偶理论的一次简单学习总结,对熟悉线性代数后希望从理论上了解 WGAN 的读者应该会有一定的参考价值。如果对文中内容有什么疑惑或批评,欢迎留言指出。
点击以下标题查看作者其他文章:
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 查看作者博客